Vision Language Model

Zero-shot Learning網羅的サーベイ：CLIPが切り開いたVision & Languageの新しい世界

https://techblog.exawizards.com/entry/2023/05/10/055218

Vision Language Model の技術詳細と推論と学習

https://note.com/npaka/n/n76fb29eadbe6

Large Vision Language Model (LVLM) に関する最新知見まとめ

https://speakerdeck.com/onely7/large-vision-language-model-lvlm-niguan-suruzui-xin-zhi-jian-matome-part-1?slide=8

LongVLM: Efficient Long Video Understanding via Large Language Models

https://arxiv.org/pdf/2404.03384

【Pycon mini 東海 2024】Google Colaboratoryで試すVLM

https://speakerdeck.com/kazuhitotakahashi/pycon-mini-dong-hai-2024-google-colaboratorydeshi-suvlm?slide=2

Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた

https://zenn.dev/firstautomation/articles/d05572e54949f3

YOLO-world

https://github.com/AILab-CVC/YOLO-World

Personalized Visual Instruction Tuning

https://arxiv.org/abs/2410.07113

From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

https://arxiv.org/abs/2410.06456

DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models

https://github.com/DynaMath/DynaMath

画像系マルチモーダルLLMであるQwen2-VLのファインチューニングの練習

https://note.com/kan_hatakeyama/n/n61ea46ab1fca

生成AIを用いて製造現場における品質管理業務を自動化する：組み立て作業の自動評価システムの例

https://magazine.algomatic.jp/automation-quality-control-manufacturing-ai

A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models

https://arxiv.org/abs/2307.12980

Are Vision-Language Models Truly Understanding Multi-vision Sensor?

https://arxiv.org/abs/2412.20750

https://moondream.ai/playground

VILA: Optimized Vision Language Models

https://github.com/NVlabs/VILA?tab=readme-ov-file#vila-optimized-vision-language-models

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

https://arxiv.org/abs/2501.03225

アナログメーターやデジタルメーターの値を生成AIで読み取る

https://dev.classmethod.jp/articles/read-values-of-analog-and-digital-meters-with-gen-ai/

「DeepSeek Janusのアーキテクチャ」松尾研 LLM コミュニティ "Paper & Hacks Vol.35"

https://www.youtube.com/watch?v=DFnlVWbr5Jk

マルチモーダル理解・生成タスクではそれぞれ必要な理解度が異なる

理解タスクでは概要がつかめれば良いが、生成タスクではピクセルレベルの細部を知る必要がある

単一のモデルで理解と生成を行う場合、学習のバランスが重要になる

Chameleon

https://arxiv.org/abs/2405.09818

可変品質での圧縮を実現する画像トークナイザ「One-D-Piece」を公開しました

https://zenn.dev/turing_motors/articles/6d77c5a3b3712e

True Multimodal In-Context Learning Needs Attention to the Visual Context

https://arxiv.org/abs/2507.15807

Iwin Transformer: Hierarchical Vision Transformer using Interleaved Windows

https://arxiv.org/abs/2507.18405

Visualizing How VLMs Work

https://huggingface.co/blog/not-lain/vlms

moonshotai/Kimi-K2.5

https://huggingface.co/moonshotai/Kimi-K2.5/tree/main